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摘要 : 


[ 目的 】 对 商品 检索 中 的 购物 任务 进行 识别 ,， 并 对 多 任务 会 话 行为 特征 进行 分 析 。[ 方法 】 利 用 淘宝 商品 


分 类 体系 以 及 自 建 的 商品 词 表 , 根据 商品 检索 的 检索 式 进行 购物 任务 识别 , 数据 集 为 2754 个 用 户 的 19 704 个 检 


索 会 话 。[ 结果 


影响 每 个 购物 任务 所 用 检索 式 数 的 因素 包括 商品 分 面 、 数 量 的 多 少 以 及 描述 难 易 程度 ; 


有 主要 任务 和 次 要 任务 之 分 的 多 任务 会 话 中 , 任务 之 间 的 关系 更 为 紧密 。[ 局 限 ] 购 物 任务 识别 方法 有 待 完善 ， 只 
以 检索 式 作 为 研究 对 象 无 法 全 面 反 映 用 户 行为 特征 。[【 结论 ] 本 研究 可 以 帮助 理解 购物 中 的 商品 检索 行为 ， 并 为 
设计 更 好 的 商品 推荐 算法 、 预 测 用 户 购物 过 程 、 行 为 等 提供 依据 。 


关键 词 : 商品 检索 
分 类 号 : G358 


购物 任务 识别 


购物 任务 分 析 “多 任务 会 话 
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近年 来 ,网 络 购物 由 于 其 便捷 、 高 效 , 不 受 时 空地 
域 限制 的 特点 , 越 来 越 受 到 用 户 青睐 。 借 助 互 联网 高 
度 的 互动 性 、 便 利 性 、 透 明 性 和 个 性 化 ,网 络 购物 得 
以 提升 服务 质量 ,并 且 可 以 通过 数据 挖掘 、 机 器 学 习 


m 


的 用 户 行为 , 他 们 在 检索 系统 随机 抽取 的 1 000 个 会 
WP, 11.4% 的 会 话 涉及 多 任务 检索 ; Spink 等 外 的 
研究 也 发 现 , 含有 三 个 或 以 上 检索 式 的 会 话 中 , 多 任 
务 会 话 占 比 超过 九 成 。 但 对 网 络 购物 用 户 信息 行为 的 
分 析 中 , 针对 用 户 使 用 的 检索 式 进行 分 析 , 识别 用 户 
任务 的 研究 较 少 。 本 研究 旨 在 补充 此 领域 研究 的 不 足 ， 


等 技术 来 实施 实时 营销 和 精准 营销 门 ,基于 以 上 优点 ， 
网 络 购物 成 为 了 人 们 生活 中 越 来 越 重要 的 一 种 购物 
方式 。 

据 中 国 互联 网 络 信 息 中 心 (CNNIC) 发 布 的 《2014 
年 中 国 网 络 购物 市 场 研究 报告 汇 显 示 , 2014 年 网 络 零 
售 交 易 额 达到 2.79 万 亿 元 , 同比 增长 49.7%。 在 网 络 
购物 发 展 势头 迅猛 的 当下 ， 如 何 分 析 网 络 购物 用 户 行 
为 ， 得 出 行为 特征 ,并 以 此 为 基础 对 电 商 系统 进行 优 
化 和 改进 ， 就 成 为 一 个 值得 关注 的 问题 。 在 网 络 购物 
行为 中 , 同时 开展 多 个 购物 任务 的 现象 很 常见 , 但 对 
于 网 络 购物 任务 的 识别 以 及 多 任务 情况 下 搜索 特征 的 
分 析 很 少 。 一 般 网 络 搜索 也 具有 多 任务 的 特性 , 例如 
Spink 等 趾 的 研究 指出 ,多 任务 信息 检索 是 一 种 很 常见 


通过 分 析 用 户 在 网 络 购物 时 使 用 的 检索 式 , 对 用 户 的 
购物 任务 进行 识别 ,并 根据 所 识别 的 结果 展开 多 购物 
任务 间 关 系 以 及 搜索 特征 的 研究 。 

与 本 研究 相关 的 一 些 定义 如 下 : 会 话 是 一 个 客 
户 与 服务 器 之 间 的 不 中 断 的 请 求 响应 序列 , 用户 的 
一 次 会 话 代表 了 用 户 的 一 次 网 购 过 程 品 。 本 研究 中 ， 
如 果 用 户 在 完成 一 个 动作 之 后 连续 45 分 钟 没 有 进行 
任何 动作 ， 则 视 为 一 个 会 话 的 结束 , 并 将 这 之 后 用 户 
第 一 个 动作 作为 下 一 个 会 话 的 开始 中。 购物 任务 是 指 
用 户 为 了 购买 某 一 种 商品 所 做 出 的 一 系列 行为 的 集 
E, 基于 研究 目的 ， 本 研究 主要 在 单个 会 话 中 进行 购 
物 任务 的 识别 , 多 任务 会 话 则 是 指 含有 多 个 购物 任务 
的 会 话 。 


通讯 作者 : 周 翔 , ORCID: 0000-0003-0982-6047, E-mail: zhouxiang.im@pku.edu.cn。 
* 本 文系 国家 自然 科学 基金 项 目 “ 面 向 电子 商务 生态 平衡 的 目录 导购 机 制 研究 (项 目 编号 :71373015) 的 研究 成 果 之 一 。 
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2 文献 综述 


2.1 检索 系统 中 的 任务 识别 

检索 任务 识别 的 主要 思路 有 : 比较 检索 式 之 间 的 
相关 度 ; Glance "提出 比较 网 络 搜索 引擎 中 进行 检索 
所 返回 的 URL; Raghavan 等 四 提出 比较 检索 所 得 的 文 
档 等 。 根 据 用 户 两 次 检索 在 上 述 指标 上 的 相似 程度 ， 
判断 两 次 检索 是 否 属于 同一 个 检索 任务 。 

比较 两 个 检索 式 相 关 度 的 方法 主要 有 以 下 两 种 : 
对 比 检索 式 之 间 的 字符 相似 程度 ,提取 两 个 检索 式 中 
的 检索 词 集合 , 可 用 的 指标 有 Jirvelin 等 外 的 Jaccard 
指标 ， 以 两 个 集合 的 交集 与 两 个 集合 的 并 集 的 比值 作 
为 相似 度 的 判断 指标 ， 以 及 Jones RU? ER 5] f 
Levenstein 距离 ; 对 比 检索 式 之 间 的 语义 关联 程度 5 
采用 向 量 空间 的 思想 ,分 别 利 用 外 部 知识 资源 如 
Wiktionary 和 Wikipedia 所 提供 的 语义 关系 , 计算 每 个 
检索 词 与 语义 网 中 每 个 资源 的 相似 度 并 生成 向 量 (如 
检索 词 t, 共有 W 个 资源 ，Ci 为 检索 词 t 与 第 i 个 资源 
的 相关 度 , WERE COC, C) 每 个 
检索 式 对 应 的 向 量 为 检索 式 中 包含 的 检索 词 对 应 的 向 
量 之 和 , 然后 通过 计算 两 个 检索 式 所 对 应 向 量 的 夹 角 
作为 计算 两 个 检索 式 相 关 度 的 指标 。 

Lucchese 等 ("的 研究 在 具体 的 检索 任务 识别 中 采 
取 了 以 下 方法 : 首先 对 检索 日 志 进 行 一 定 的 处 理 , 步 
又 包括 : 去 除 空 记录 和 无 意义 记录 、 去 除 停 用 词 、 用 
算法 去 除 检 索 词 形态 上 的 变化 、 去 除 持续 时 间 较 长 而 
且 含 有 过 多 检索 式 的 会 话 记 录 ( 这 些 记 录 可 能 由 机 器 
产生 , 与 对 用 户 研究 的 目的 不 符 )。 然 后 根据 上 文 所 提 
到 的 方法 , 计算 检索 式 之 间 的 字符 相似 程度 和 语义 关 
联 程 度 。 最 后 综合 两 个 评价 指标 , 他 们 提出 两 种 方法 : 
其 一 是 做 简单 的 加 权 人 处理, 对 两 个 指标 进行 加 权 平 均 ， 
得 到 一 个 统一 的 指标 ; 其 二 是 当 词 形 相似 度 高 于 一 定 
阔 值 的 时 候 取 词 形 相似 度 作 为 最 终 指标 ， 而 当 词 形 相 
似 度 低 于 阔 值 的 时 候 取 词 形 相 似 度 和 语义 相似 度 的 较 
大 值 作为 指标 。 

从 已 有 研究 来 看 ,目前 任务 识别 的 主流 方式 是 分 
析 检 索 式 之 间 的 字符 相似 程度 或 语义 关联 程度 ,建立 
相应 的 评价 指标 ,进而 识别 出 同属 于 一 个 任务 的 多 个 
检索 式 。 
2.2 多 任务 检索 会 话 研 究 


ChinaXiv 合 作 期 刊 
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因 主 要 有 两 种 : 检索 用 户 在 一 开始 就 有 多 个 需要 检索 
的 主题 ; 检索 用 户 一 开始 只 有 一 个 检索 主题 , 但 在 检 
索 的 过 程 中 衍生 出 其 他 的 检索 主题 

关于 多 任务 检索 会 话 的 特征 ， Ozmutlu 450477 Jg 
多 任务 会 话 在 检索 式 的 长 度 和 会 话 所 花 时 间 上 都 多 于 
单 任务 会 话 。 他 们 的 另 一 项 研究 号 也 验证 了 多 任务 会 
话 所 花 时 间 更 多 的 结论 。Lin 等 09 发 现 多 任务 会 话 中 
检索 式 数量 较 之 单 任 务 会 话 更 多 。 

Lucchese 45/7! , Spink 4&7), Wang 等 ("都 采用 日 

志 分 析 的 方法 对 多 任务 会 话 进行 研究 ,相关 的 研究 结 

me 1 所 示 : 


表 1 相关 研究 结果 对 比 


比较 项 Lucchese 等 Spink 等 Wang 等 

日 志 来 源 AOL AltaVista Bing.com 
日 志 时 间 3 个 月 1 天 5 天 
会 话 数 307 254 37 547 
检索 式 数 1 424 655 114 723 
每 个 会 话 平 
检索 式 数 4.49 2.58 3.1 
每 个 任务 平 
检索 式 数 2.57 6.6 
每 个 会 话 平 T z u 
5E AR l 
多 任务 会 话 o u 
"m 74% 81.2% 

会 话 的 平均 多 任务 会 话 平均 时 间 和 
其 他 持续 时 间 为 ”检索 式 长 度 约 为 普通 会 一 

15 分 钟 话 的 2 倍 


如 表 1 所 示 , 网 页 检索 中 每 个 会 话 所 含 的 检索 式 
平均 在 2-5 个 左右 , 多 任务 会 话 的 比例 高 达 7096-8096 
以 上 。 

目前 对 多 任务 会 话 的 研究 主要 集中 在 会 话 及 任务 
的 数值 特征 (如 时 间 、 检 索 式 长 度 、 每 个 会 话 平均 任务 
数 、 每 个 任务 平均 检索 式 数 等 )。 而 进一步 的 研究 ， 如 
分 析 任 务 类 型 对 相关 数值 特征 的 影响 ,以 及 分 析 会 话 
中 任务 间 的 联系 等 还 比较 缺乏 。 

本 研究 通过 对 商品 检索 日 志 进 行 处 理 , 采取 以 商 
品类 型 为 特征 对 检索 式 进 行 标 引 进而 对 任务 进行 识别 
的 新 方式 ， 分 析 商 品 检索 中 多 任务 会 话 的 基本 情况 ， 
并 进一步 挖掘 商品 类 型 与 检索 行为 之 间 的 关系 ， 以 及 
多 任务 会 话 中 任务 关系 与 任务 主 次 之 间 的 关联 ， 填 补 


Spink 等 上 9 认为 ， 关 于 多 任务 检索 会 话 产生 的 原 
现代 图 书 情报 技术 


目前 该 领域 对 这 一 方面 研究 的 空白 。 


3 ”研究 方法 


3.1 数据 描述 及 预 处 理 

采用 的 日 志 数 据 是 由 第 三 方 市 场 调查 机 构 采 集 自 
用 户 客 户 端 2013 年 5 月 在 淘宝 网 上 的 访问 数据 ,可 用 
日 志 数据 表 中 总 共有 记录 1409 160 条 , 涉及 到 81 759 
个 访问 会 话 , 4 285 个 用 户 。 

数据 预 处 理 的 步 又 如 下 : 

(1) 对 商家 数据 进行 筛选 和 剔除 。 由 于 本 研究 主 
要 是 针对 网 络 购物 中 的 消费 者 进行 研究 ,因此 得 去 了 
会 话 数 大 于 100 的 用 户 (很 可 能 是 商家 ) 的 数据 。 

(2) 去 除 用 户 其 他 行为 类 型 如 登录 、 浏 览 、 翻 页 、 
筛选 等 产生 的 记录 。 由 于 本 研究 侧重 用 户 搜索 时 产生 
的 日 志 , 其 他 行为 的 日 志 与 本 人 研究 无 关 , 也 一 并 进行 
筛选 和 剔除 。 

经 过 预 处 理 得 到 的 数据 集合 包括 53 091 个 含有 原 

台 检索 式 的 记录 , 共 涉 及 到 2 754 个 用 户 ,占用 户 总 数 
的 64.27%; 共 涉 及 19 704 个 会 话 ， 占 用 户 会 话 总 数 的 
24.10%, 

3.0 ”任务 识别 方法 及 评估 

对 已 有 的 商品 检索 记录 进行 任务 识别 , 流程 如 图 

1 所 示 : 


2. 分 词 、 词 频 
Se. fide 


商品 词 表 


图 1 任务 识别 流程 
(1) 通过 淘宝 APT 获取 所 有 的 商品 类 目 数据 信息 
一 一 共 14 000 余 商 品类 目 , XHEK 4-5 级 。 以 这 一 
前 品 分 类 目录 为 基础 ， 并 对 类 目 设置 进行 增补 、 修 改 


(Dhttp://open.taobao.com/. 


和 删 减 ， 建 立 一 套 改 进 的 商品 类 目 等 级 分 类 目录 。 

(2) 对 原 有 的 商品 检索 记录 进行 切 词 处 理 ， 对 
53 091 条 商品 检索 记录 进行 切 词 , 共 得 到 163 617 个 
词语 。 对 所 得 词语 的 词 频 进行 统计 ， 并 选取 其 中 出 现 
频次 大 于 等 于 10 次 的 词语 , 共 2 376 个 。 对 所 得 词语 
进行 第 选 ,选取 其 中 能 代表 商品 类 型 的 词语 , 作为 词 
表 的 组 成 部 分 。 再 将 所 筛选 出 的 词语 ,， 与 建立 好 的 商 
品类 目 分 类 体系 进行 匹配 。 同 时 选取 商品 类 目 分 类 体 
系 中 的 商品 类 目 名 称 , 也 作为 词 表 的 组 成 部 分 纳入 。 
将 两 部 分 进行 合并 ,得 到 一 个 较为 完整 的 词 表 , 包含 
了 绝 大 多 数 直 接 指向 商品 类 目的 词语 以 及 一 些 检索 中 
使 用 频率 较 高 的 品牌 名 称 。 

对 购物 任务 进行 识别 时 , 将 商品 检索 记录 与 词 表 
和 商品 类 目 映 射 关系 进行 匹配 ， 若 一 条 检索 记录 匹配 
到 词 表 中 的 某 个 词语 , 则 将 该 条 检索 记录 所 对 应 的 购 
物 任务 用 该 词语 所 对 应 的 商品 类 目 进 行 标识 。 原 始 商 
品 检索 记录 共有 53 091 条 , 匹配 成 功 的 记录 有 41 486 
条 , 匹配 成 功 记录 占 总 记录 的 78.14%。 如 果 某 一 用 户 
一 个 会 话 中 的 两 条 或 多 条 检索 记录 被 标识 为 同一 商品 
细 类 , 则 认为 这 两 条 检索 记录 属于 同一 购物 任务 。 

为 考察 该 购物 任务 识别 方法 的 准确 度 ， 从 匹配 成 
功 的 商品 检索 记录 中 随机 抽取 了 200 条 进行 人 工 的 任 
务 识别 。 在 200 条 记录 中 , 有 164 条 记录 的 购物 任务 
识别 准确 或 基本 准确 , 准确 率 为 82%。 


4 结果 分 析 


4.1 会 话 及 任务 分 布 情况 

检索 日 志 共 包含 19 074 个 会 话 , 进行 购物 任务 识 
别 之 后 会 话 内 包含 被 识别 的 购物 任务 的 会 话 16 050 个 ， 
占 会 话 总 数 的 84.15%， 共 对 应 购物 任务 26 182 个 。 平 
均 每 个 会 话 对 应 的 购物 任务 为 1.63 个 , 每 个 购物 任务 
对 应 的 检索 记录 为 1.585 条 。 为 比较 各 商品 大 类 之 间 
每 个 任务 的 平均 检索 式 数 , 列 出 检索 式 数 /任务 数 比 值 
较 高 和 较 低 的 5 个 大 类 ,如 表 2 所 示 。 可见, 检索 式 数 
/任务 数 比 例 最 高 的 类 目 是 服装 、 箱 包皮 具 、 五 金 /工具 、 
手表 等 , 而 比例 最 低 的 类 目 主 要 是 传统 滋补 营养 品 、 
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/ 
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mem 


Ei 


表 2 部 分 商品 类 目 检索 式 数 与 任务 数 


类 目 检索 任务 平均 
商品 类 目 ID 式 数 任务 数 检索 式 数 
k 161 7770 19 358 2.49 
箱包 皮具 146 1 406 3 047 2.17 
五 金 /工具 126 116 233 2.01 
手表 159 129 256 1.98 
网 游 155 73 142 1.95 
a 116 51 72 1.41 
、 147 176 246 1.40 
3p] A5 
2 s 123 160 220 1.38 
^F fn 
药品 /医疗 器 械 156 68 92 1.35 
传统 滋补 营养 品 — 134 135 176 1.30 
药品 /医疗 器 械 、 个 人 护理 /保健 /按摩 器 材 、 珠 宝 /钻石 


IRERE, ERA) T. 影响 任务 平均 检索 式 的 因素 主 


(1) 检索 商品 分 面 较 多 , 检索 条 件 的 涉及 面 也 比 
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较 广 泛 的 商品 类 型 时 , 往往 会 在 一 个 任务 中 使 用 更 多 
的 检索 式 进 行 检索 。 如 某 用 户 (UID: 924212012883 
1377467; SID: 99456) 先 以 “ 雪 纺 衫 "作为 检索 词 , 但 检 
索 结 果 数 量 较 多 ,所 以 用 户 为 了 进一步 筛选 ,减少 挑 
选 范围 , 加 入 限制 条 件 , 使 用 “ 雪 纺 衫 短 袖 ? 进 一 步 检 
索 , 而 后 使 用 “ 雪 纺 衫 短 袖 花色 ”进一步 检索 。 相 比 
之 下 , 任务 平均 检索 式 数 较 低 的 商品 如 传统 滋补 营养 
品 、 药 品 /医疗 器 械 等 类 目下 的 商品 专 指 程度 较 高 , 用 
于 进一步 检索 的 条 件 也 比较 少 ,进行 一 次 检索 之 后 所 
得 的 商品 列表 可 以 由 用 户 在 其 中 进行 直接 选择 。 比 如 
某 用 户 (UID: 10071878660749185838; SID: 624) 购 买 
保 婴 丹 ( 属 于 药品 /医疗 器 械 )， 只 检索 “ 余 仁 生 + 保 婴 
丹 ” 就 得 到 较 小 的 商品 范围 , 不 需要 更 多 的 检索 式 缩 
小 检索 范围 。 

(2) 任务 平均 检索 式 数 较 高 的 商品 类 型 所 对 应 的 
词语 在 日 常生 活 中 使 用 频率 不 高 ， 较 难 描 述 , 用 户 需 
要 不 断 修正 检索 式 来 检索 自己 想 要 的 商品 。 比 如 五 金 / 
工具 类 的 某 一 个 任务 中 , 某 用 户 (UID: 17461349388 
365160511; SID: 48488) 在 检索 时 使 用 了 “移动 门 门 
锁 ”“ 移 动 门 锁 *“ 移 门 锁 ”"、“ 趟 门 门 锁 "、“ 门 锁 ” 等 
词汇 来 检索 商品 。 
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4.2” 双 任务 会 话 分 析 

(1) 主 次 任务 的 区 分 

在 同时 开展 两 项 购物 任务 的 会 话 中 ,购物 任务 可 
能 存在 主 次 之 分 。 用 户 可 能 会 更 为 关注 主要 任务 , 进 
行 更 为 详细 的 检索 和 筛选 ,因此 用 户 在 主要 任务 中 使 
用 的 检索 式 会 更 多 , 反之 亦 然 , 因此 将 每 个 任务 所 含 
的 检索 式 数 量 作为 判断 任务 是 否 有 主 次 之 分 的 依据 。 
当 会 话 中 的 两 个 任务 所 含 检索 式 数 量 有 显著 差异 时 ， 
认为 这 两 个 任务 有 主 次 之 分 , 所 含 检索 式 较 多 的 为 主 
要 任务 , 较 少 的 为 次 要 任务 。 当 会 话 中 的 两 个 任务 所 
含 检 索 式 数量 没有 显著 差异 时 ,笔者 认为 这 两 个 任务 
没有 主 次 之 分 。 

具体 的 分 析 步 又 为 : 首先 抽取 出 双 任 务 会 话 及 其 
所 含 的 两 个 任务 及 对 应 的 检索 式 数 量 ,然后 基于 以 下 
标准 进行 判断 : 检索 式 数 相 差 0 或 1 的 ; 检索 式 数 相差 
2 且 两 任务 所 含 检索 式 数 不 为 1 和 3 的 。 满 足以 上 两 
个 标准 的 其 中 一 个 则 标识 为 没有 主要 任务 和 次 要 任务 
之 分 ,两 个 标准 都 不 满足 的 则 为 有 主要 任务 和 次 要 任 
务 之 分 。 

在 总 共 3 133 个 双 任 务 会 话 中 , 2 591 个 会 话 的 两 
个 任务 间 没 有 主 次 关系 , 占 比 82.7096, 而 有 主要 、 次 
要 任务 之 分 的 会 话 有 542r, HHE 17.30%。 

(2) 任务 间 关 系 

本 研究 将 两 个 任务 之 间 的 关系 分 为 三 类 : 强 关 联 
任务 ， 两 个 任务 之 间 有 比较 紧密 的 联系 ， 比 如 某 一 用 
户 的 两 个 任务 分 别 对 应 “沙发 "和 “住宅 家 具 ” 两 个 商品 
类 目 ( 上 下 位 类 ); 弱 关 联 任务 ,两 个 任务 之 间 有 所 联 
R, 但 并 不 紧密 ， 如 某 一 用 户 的 两 个 任务 分 别 对 应 “长 
裤 ”* 和 “和 牛仔裤” 两 个 商品 类 目 ( 具 有 共同 的 上 位 类 “ 裤 
子 ”); 无 关联 任务 , 两 个 任务 之 间 没 有 联系 ， 如 用 户 的 
两 个 任务 分 别 对 应 “牛仔 裤 ” 和 “面膜 /面膜 粉 ”两 个 商品 
类 目 。 

根据 这 一 区 分 标准 , 对 3 133 个 双 任 务 会 话 进行 任 
务 关 系 的 标识 。 标 识 结果 如 表 3 所 示 : 

表 3 ， 双 任 务 会 话 关联 类 型 分 析 

会 话 类 型 ” 强 关联 ”比例 ” 弱 关联 ”比例 ”无 关联 ”比例 
无 主要 任务 309 11.93% 305 11.77% 1977 76.3096 
有 主要 任务 83 

总 计 392 


15.31% 48 8.86% 411 75.83% 


12.51% 353 11.27% 2388 76.22% 


其 中 无 关联 任务 的 比例 最 多 ,， 占 76.30%。 有 主要 
任务 的 会 话 中 , 强 关联 和 弱 关联 任务 有 比较 显著 的 差 
别 。 考 察 在 所 有 两 任务 相关 的 情况 , 运用 SAS 软件 进 
行 独立 性 检验 , 得 到 其 ?为 7.3558, P 值 为 0.0067, 在 
a=0.05 水 平 下 可 以 否定 假设 ， 即 会 话 类 型 和 任务 类 型 
相关 。 

双 任 务 会 话 中 , 有 主 次 任务 的 会 话 ， 其 两 个 任务 
之 间 的 联系 会 更 为 紧密 ， 而 无 主 次 任务 之 分 的 会 话 ， 
任务 之 间 的 联系 不 如 前 者 。 

4.3 三 任务 会 话 分 析 

(1) 主要 任务 区 分 

三 任务 会 话 中 ,如 果 有 一 d UE 
于 其 他 两 个 任务 检索 式 数 量 之 和 , 则 认为 该 任务 是 
话 中 的 主要 任务 ; 另外 如 果 有 一 个 任务 的 检索 式 数量 
等 于 其 他 两 个 任务 检索 式 数量 ， 且 检索 式 数量 较 少 的 
两 个 任务 所 含 检索 式 数量 均 大 于 一 个 , 也 认为 检索 式 
数量 最 多 的 任务 是 该 会 话 中 的 主要 任务 。1 230 个 三 任 
务 会 话 中 , 有 291 个 会 话 含 有 主要 任务 , 占 总 数 的 
23.66%。 

(2) 任务 间 关 系 

对 于 会 话 中 存在 三 个 任务 的 关系 分 析 , 采用 两 两 
比较 的 方式 , 判断 两 个 任务 为 相关 /不 相关 , 这 样 三 任 
会 话 中 任务 之 间 的 关系 有 三 种 : 三 个 任务 都 有 关联 ; 
两 个 任务 有 关联 ， 另 一 个 任务 与 它们 无 关联 ; 三 个 任 
务 两 两 都 不 关联 。 

随机 抽取 120 个 会 话 , 其 中 90 个 不 含 主要 任务 的 
会 话 , 30 个 含 主要 任务 的 会 话 , 进行 会 话 中 三 个 任务 


之 间 关 系 的 判定 。 结 果 如 表 4 所 示 : 
表 4 三 任务 会 话 中 是 否 有 主要 任务 和 有 关联 任务 
之 间 关 系 
会 话 ”三 任务 两 任务 NN 
类 型 Sm 比例 关联 比例 “无 关联 比例 
无 主要 5 , " 
任务 10 11.11% — 32 35.56% 48 53.33% 
有 主要 
任务 4 13.33% | 17 56.67% 9 30.009 
总 计 14 11.67% — 49 40.83% 57 47.5096 


运用 SAS 软件 对 任务 类 型 和 关系 类 型 做 属性 变量 
关联 度 计算 , 结果 如 图 2 所 示 。 使 用 Kendall Tau-b 统 
计量 进行 判断 , 该 统计 量 取 值 在 -1 到 1 之 间 , 值 接近 1 
表示 正 关联 ( 即 没有 主要 任务 的 会 话 中 任务 之 间 
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相关 度 更 高 ),， 值 接近 -1 表示 负 关 联 ( 即 没有 主要 任务 
的 会 话 中 任务 相关 度 更 低 )。 在 这 一 分 析 中 ，Kendall 
Tau-b 的 95% 置 信 区 间 为 (-0.3404，-0.0056), 该 区 间 在 
零点 左边 , 故 可 以 认为 会 话 类 型 和 任务 之 间 的 关系 有 
负 关 联 , 没有 主要 任务 的 会 话 中 任务 之 间 的 相关 度 更 
低 ， 而 有 主要 任务 的 会 话 中 任务 之 间 的 相关 度 更 高 。 


“maintask * relation” 表 的 统计 量 


统计 量 值 ” 渐 近 标 准 误差 
amma -0. 3492 0. 1563 
Kendall Tau-b -0. 1730 0. 0837 
Stuart Tau-c -0. 1633 0. 0801 
Somers D e -0. 2178 0. 1044 
Somers D R|C -0. 1375 0. 0680 
Pearson 相关 系数 -0. 1626 0. 0877 
Spearman 相关 系数 -0. 1800 0. 0870 
Lambda 非 对 称 e 0. 1270 0. 0756 
Lambda 非 对 称 RIC 0. 0000 0. 0000 
Lambda 对 称 0. 0860 0. 0512 

^x ES 0. 0224 0. 0193 
不 确定 系数 R 0. 0387 0. 0330 

确定 系数 对 0. 0284 0. 0243 

样本 大 小 = 120 


图 2 三 任务 会 话 有 无 主要 任务 与 任务 关联 
类 型 变量 关联 计算 结果 


4.4 多 任务 会 话 关系 

综合 双 任 务 会 话 中 任务 关系 和 三 任务 会 话 中 关于 
任务 关系 的 研究 ， 可 以 得 到 如 下 结论 : 有 主要 任务 ( 即 
使 用 检索 式 较 多 的 任务 ) 的 会 话 中 , 会 话 中 所 含 任务 之 
间 的 关系 较 之 无 主要 任务 的 会 话 更 紧密 一 些 。 

无 主要 任务 的 会 话 情境 对 应 用 户 预 设 的 多 个 购物 
任务 ,这 些 任务 重要 程度 相当 且 未 必 有 直接 联系 。 例 
如 某 用 户 (UID: 10987349518420796011; SID: 6367) 和 欲 
购买 两 种 商品 : 手机 过 和 连衣裙 ， 用 户 在 同一 会 话 中 
分 别 对 这 两 种 商品 进行 检索 , 使 用 的 检索 式 数量 也 会 
大 体 相当 。 如 上 文 提 到 的 用 户 , 在 会 话 中 关于 手机 壳 
和 连衣裙 的 检索 式 均 为 5 条 。 

有 主要 任务 的 会 话 , 用 户 在 进行 主要 任务 的 检索 
时 会 衍生 出 一 些 有 关系 的 次 要 任务 , 主要 任务 和 次 要 
任务 之 间 联 系 会 比较 紧密 ; 或 者 是 用 户 先 检索 一 种 商 
品 ， 然 后 在 检索 过 程 中 受到 影响 意识 到 自己 真正 需要 
的 商品 ， 从 而 转 到 主要 任务 的 检索 当中 。 比 如 某 用 户 
(UID: 15691965703667985508; SID: 37988) 想 购买 拖 
TE, 在 检索 拖鞋 的 时 候 使 用 了 三 条 检索 式 , 在 检索 过 
程 中 可 能 商品 结果 页 面 推荐 了 商品 “果冻 鞋 ” 因而 衍 

生出 “果冻 鞋 ” 的 检索 式 一 条 。 在 这 样 的 情境 下 ， 两 个 
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任务 之 间 检 索 式 数量 会 存在 差别 , 存在 主要 任务 和 次 
要 任务 之 分 , 同时 主要 任务 和 次 要 任务 之 间 在 商品 类 
型 上 会 有 比较 紧密 的 联系 。 


5 结论 和 讨论 


本 研究 旨 在 对 商品 检索 中 的 检索 式 进 行 任务 识别 
并 分 析 其 特征 , 得 出 的 主要 结果 如 下 : 

(1) 影响 不 同 种 类 商品 平均 每 个 购物 任务 所 用 检 
索 式 数 的 因素 主要 有 两 个 : 其 一 是 商品 分 面 多 少 及 数 
量 多 少 , 分 面 多 、 数 量 多 的 商品 , 需要 用 更 多 检索 式 来 
缩小 检索 结果 范围 , 反之 亦 然 ; 其 二 是 商品 描述 的 难 
易 程 度 , 需要 专业 术语 描述 的 商品 较 难 进行 检索 , 需 
要 不 断 改变 检索 词 ， 提 交 不 同 的 检索 式 以 得 到 比较 准 
确 的 检索 结果 范围 。 

(2) 在 多 任务 会 话 中 ,以 检索 式 的 多 少 来 定义 主 
要 任务 和 次 要 任务 , 得 到 结论 : 有 主要 任务 和 次 要 任 
务 之 分 的 会 话 中 , 任务 之 间 的 联系 要 比 无 主要 任务 和 
次 要 任务 之 分 的 会 话 更 为 紧密 。 

本 研究 也 存在 一 些 不 足 , 在 购物 任务 的 识别 中 ， 
商品 分 类 体系 、 词 表 构 建 、 匹 配 规则 等 都 有 可 以 进 一 
步 完善 的 空间 。 以 商品 检索 式 作为 购物 任务 识别 的 依 
据 存在 一 定局 限 ， 因 为 检索 式 只 反映 用 户 的 检索 行为 ， 
而 没有 对 其 他 购物 行为 特征 如 商品 浏览 、 比 较 、 购 物 
决策 等 进行 考虑 ， 因 而 对 用 户 的 分 析 可 能 不 够 全 面 ; 
而 其 他 用 户 行 为 特征 ， 如 点 击 行为 、 页 面 之 间 的 跳 转 
等 ,也 可 以 为 购物 任务 识别 提供 依据 。 今 后 可 以 结合 
其 他 数据 ， 对 用 户 多 购物 任务 的 信息 行为 特征 展开 进 
一 步 研究 。 此 外 ， 随 着 移动 购物 的 发 展 和 普及 ,考察 移 
动 端 用 户 行为 ,并 与 PC 端 用 户 行为 进行 比较 , 也 是 一 
个 值得 研究 的 课题 。 
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Multi-task Session Identification and Analysis in Product Search 


Zhang Pengyi Zhou Xiang Wang Jun 
(Department of Information Management, Peking University, Beijing 100871, China) 


Abstract: [Objective] This research aims to identify shopping tasks from product search, and then analyze the 
characteristic of multi-task sessions. [Methods] Using the product classification of Taobao, and a list of manually 
selected product terms, we identified online shopping tasks based on query terms from 19 704 search sessions by 2 754 
users. [Results] First, factors influence the number of queries per shopping task: product characteristics, the amount of 
available products, and the difficulty in describing product category with query terms. Second, we found that in sessions 
with a major task, the relationship among the shopping tasks is closer. [Limitations] The task identification method 
based on query terms cannot completely describe the complex consumer shopping behaviors. [Conclusions] This study 
provides an exploratory understanding of the relationships among various shopping tasks, and may be used to improve 
product recommendation algorithm, as well as predict shopping behaviors. 
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